BDPA - Bases de Dados da Pesquisa Agropecuária

Biblioteca

Autor

Assunto

Tipo

Circulação/Nível

Ano

Idioma

	Português (163)
	Inglês (94)

Tipo do arquivo

	Documento digital (168)
	Página Web (51)

Registro Completo

Biblioteca(s):	Embrapa Agricultura Digital.
Data corrente:	22/12/2017
Data da última atualização:	21/01/2020
Tipo da produção científica:	Artigo em Anais de Congresso
Autoria:	BARROS, F. M. M.; OLIVEIRA, S. R. de M.
Afiliação:	FLAVIO M. M. BARROS, Feagri/Unicamp; STANLEY ROBSON DE MEDEIROS OLIVEIRA, CNPTIA.
Título:	Avaliação de métodos de detecção de tópicos em pré-processamento para classificação de textos agrícolas.
Ano de publicação:	2017
Fonte/Imprenta:	In: CONGRESSO BRASILEIRO DE AGROINFORMÁTICA, 11., 2017, Campinas. Ciência de dados na era da agricultura digital: anais. Campinas: Editora da Unicamp: Embrapa Informática Agropecuária, 2017.
Páginas:	p. 615-624.
ISBN:	978-85-85783-75-4
Idioma:	Português
Notas:	SBIAgro 2017.
Conteúdo:	Neste trabalho, buscou-se construir e comparar modelos capazes de diferenciar textos sobre a cultura da cana-de-açúcar de outros textos relacionados a outras culturas ou criações. Para criar modelos de classificação de textos, os dados são transformados em matrizes termos-documentos, de forma que os dados apresentam alta dimensionalidade. Para construir melhores modelos de classificação de textos agrícolas foram testados: a) métodos de redução de dimensionalidade utilizando LDA (Latent Dirichlet Allocation) e PCA (Principal Component Analysis); b) número de tópicos/componentes principais; c) unigrama/bigrama; e d) algoritmos Random Forest, Gradiente Boosting e SVM (Support Vector Machine), de forma a determinar os fatores que mais impactam o AUC (Area Under the Curve). Os resultados demonstraram que os fatores estatisticamente significativos são o tipo de pré-processamento, com vantagem para LDA, e o tipo de algoritmo utilizado, com destaque para o SVM. O número de tópicos e de componentes principais e o uso de unigrama e bigrama não tiveram efeito estatisticamente significativo na performance dos modelos em termos de AUC.
Palavras-Chave:	Agricultural information systems; Aprendizado de máquina; Dimensionality reduction; Machine Learning; Mineração de textos; Redução de dimensionalidade; Sistema de informação agrícola; Text mining.
Thesagro:	Agricultura.
Thesaurus NAL:	Agriculture.
Categoria do assunto:	X Pesquisa, Tecnologia e Engenharia
URL:	https://ainfo.cnptia.embrapa.br/digital/bitstream/item/169707/1/Avaliacao-sbiagro2017.pdf
Marc:	Mostrar Marc Completo
Registro original:	Embrapa Agricultura Digital (CNPTIA)

Biblioteca	ID	Origem	Tipo/Formato	Classificação	Cutter	Registro	Volume	Status

CNPTIA

19558 - 1

UMT

AA - DD

Fechar

Nenhum registro encontrado para a expressão de busca informada.

Embrapa Todos os direitos reservados, conforme Lei n° 9.610 Política de Privacidade Área Restrita		Embrapa Agricultura Digital Av. André Tosello, 209 - Barão Geraldo Caixa Postal 6041- 13083-886 - Campinas, SP SAC: https://www.embrapa.br/fale-conosco